OTTER: Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport Distillation

#paper #Vision-and-Language

https://gyazo.com/4dbdcb91a7bb20347b521aeccd47c222

モチベーション

CLIPは単位行列を教師として学習する

→ バッチ内の負例同士にゆるい相関があった場合, 負例を全て0として学習するのは違うよね

→ 最適輸送問題を解いたものを教師として活用しよう

OTTER (Optimal TransporT distillation for Efficient zero-shot Recognition) を提案

Prototypical Contrastive Learning of Unsupervised Representationsと若干同じ感じ

loss

InfoNCEを拡張して

$ \mathcal{L}_v = -\frac{1}{N} \sum_{i=1}^N \sum_{j=1}^N [\alpha I_{ij} + (1-\alpha) M^{v}_{ij}\rbrack \log p_v(\mathbf{z}_i^v, \mathbf{z}_j^t;\tau)

とする

イメージは下のような感じ

$ Mをどうするか？→最適輸送問題に落とし込む

https://gyazo.com/5b6eed046e6347994b2b78e117761f33

最適輸送問題

以下の式を解く (ただし最適輸送問題の双対問題となっている)

$ \mathbf{M}^{v*} = \argmax_{\mathbf{M}\in\mathcal{M}} \langle \mathbf{M}, \mathbf{S}^v\rangle_{F} + \lambda H(\mathbf{M}).

$ \mathbf{S}^vはテキストと画像の類似度

$ \mathbf{S}^v = \gamma_{v} \mathbf{\tilde{Z}}^{v\top} \mathbf{\tilde{Z}}^v + \gamma_t \mathbf{\tilde{Z}}^{t\top} \mathbf{\tilde{Z}}^t + \mathbf{\tilde{Z}}^{v\top} \mathbf{\tilde{Z}}^t - \eta \mathbf{I}_N.と定義する

画像の類似度 + テキストの類似度 + テキスト-画像間の類似度 - 単位行列

$ \etaは十分に大きい正の数で, この第四項により対角成分を0にできる

どうやって解くの？

Sinkhorn-Knoppアルゴリズムを使えばOK

解は次のようになることが知られている

$ \mathbf{M}^{v*} = \text{Diag}(\mathbf{r})\exp(\mathbf{S}^v / \lambda) \text{Diag}(\mathbf{c})